iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0

深度強化學習( Deep reinforcement learning,簡稱 Deep RL 或 DRL )

  • 強化學習( Reinforcement Learning,RL )
    代理透過試錯的過程來學習,不斷調整策略以提高性能
  • 深度學習(Deep Learning)
    使用類神經網路( Neural Networks )來處理大量非結構化資料
  • 深度強化學習
    結合強化學習和深度學習,使用深度神經網絡來表示代理的策略和獎勵函數,實現更複雜的决策和控制任務,代表著智能代理直接從原始感測資料中學習,不用依賴預先設計的特徵

演算法

  1. 模型基底深度強化學習演算法:

    • 這類演算法建立了類神經網路模型來預測環境的獎勵函數和狀態轉移函數
    • 環境模型可以用監督式學習的方法來訓練,但模型不一定能完美地預測真實環境,代理人和環境互動的過程中可能要重新規劃動作
    • 可能使用蒙地卡羅樹搜尋或交叉熵方法來根據訓練好的環境模型來規劃動作
  2. 無模型深度強化學習演算法:

    • 這類演算法直接訓練類神經網路模型來表示策略,不需要建立環境模型
    • 通常使用策略梯度方法來訓練策略模型,但策略梯度的變異性很大
    • 進階的訓練方法 TRPO 和 PPO ,解決策略梯度訓練中的穩定性問題
    • 使用如時序差分學習、深度 Q 學習和 SARSA 來訓練類神經網路模型來預測未來的獎勵總和或 Q 值
    • 動作空間是離散的,用 Q 函數的最大值找到策略,如果動作空間是連續的,就需要同時訓練一個策略模型

深度強化學習問題

  1. 深度強化學習的成功案例有限,但都很有名,像是在 Atari 遊戲、圍棋、跑酷機器人等領域
  2. DRL 在樣本利用率方面非常低,需要非常大量的訓練樣本
  3. 獎勵函數設計是一個困難的問題,有可能需要合理的先驗知識,而且容易被模型「作弊」
  4. 模型對環境的 Overfitting 以及局部最優解
  5. 同一算法在不同情況下可能表現不穩定。
  6. 未來的發展方向包括硬體的改進、基於模型的學習和強化學習的結合、自動學習獎勵函數、遷移學習和強化學習的更多整合,以及引入先驗知識

參考資料

https://zh.wikipedia.org/zh-tw/%E6%B7%B1%E5%BA%A6%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0
https://bigdatafinance.tw/index.php/tech/data-processing/528-2018-02-27-04-31-42


上一篇
強化學習~SARSA
下一篇
卷積神經網絡
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言